对心脏磁共振成像(MRI)进行心室分割时具有弹性的方法,对于确保对这些组织的结构和功能分析的质量至关重要。尽管在提高算法的质量方面做出了重大努力,但很少有作品能够应对伪像在预测中产生的危害。在这项工作中,我们研究了经过验证的网络的微调,以提高以前方法对这些工件的弹性。在我们提出的方法中,我们采用了模仿这些人工制品的数据增强的广泛使用。结果显着改善了基线分割(最高0.06个骰子得分和4mm的Hausdorff距离提高)。
translated by 谷歌翻译
近年来,机器人的操纵和控制的重要性增加了。但是,在现实世界应用中需要操作时,最新技术仍然存在局限性。本文探讨了在模拟环境和真实环境中重播的事后观看经验,突出了其弱点,并根据奖励和目标塑造提出了基于加强学习的替代方案。此外,还发现了一些研究问题以及可以探索以解决这些问题的潜在研究方向。
translated by 谷歌翻译
尽管现在使用自我监督方法构建的计算机视觉模型现在很普遍,但仍然存在一些重要问题。自我监督的模型是否学习高度冗余的频道功能?如果一个自我监督的网络可以动态选择重要的渠道并摆脱不必要的渠道怎么办?目前,与计算机视觉中的有监督的对手相比,通过自我训练预先训练的Convnet在下游任务上获得了可比的性能。但是,有一些自我监督模型的缺点,包括大量参数,计算昂贵的培训策略以及对下游任务更快推断的明确需求。在这项工作中,我们的目标是通过研究如何将用于监督学习的标准渠道选择方法应用于经过自学训练的网络。我们验证我们在一系列目标预算上验证我们的发现$ t_ {d} $,用于跨不同数据集的图像分类任务的频道计算,特别是CIFAR-10,CIFAR-100和IMAGENET-100,获得了与原始网络的可比性性能when selecting all channels but at a significant reduction in computation reported in terms of FLOPs.
translated by 谷歌翻译
创建图像数据集时,使用搜索引擎进行Web图像检索是手动策划的诱人替代方法,但是它们的主要缺点仍然是检索到错误(嘈杂)样本的比例。以前的作品证明了这些嘈杂的样本是分布式(ID)样本的混合物,分配给了错误类别,但在数据集中的其他类别中呈现了相似的视觉语义,以及分布外(OOD)图像,哪些与数据集中的任何类别共享语义相关性。实际上,后者是检索到的嘈杂图像的主要类型。为了解决这种噪声二元性,我们提出了一个两阶段算法,从检测步骤开始,我们使用无监督的对比功能学习来表示特征空间中的图像。我们发现,对比度学习的比对和统一原则使OOD样品可以与单位孔隙单位上的ID样品线性分离。然后,我们使用固定的邻域大小将无监督的表示形式嵌入,并在类级别上应用异常敏感聚类以检测清洁和OOD簇以及ID嘈杂的异常值。我们最终训练了一个噪声强大的神经网络,该网络将ID噪声纠正为正确的类别,并在具有指导性的对比度目标中使用OOD样品,从而聚集它们以改善低级功能。我们的算法改善了合成噪声图像数据集的最新结果以及现实世界中的Web爬行数据。我们的工作是完全可重现的[github]。
translated by 谷歌翻译
牛la脚是一种严重的疾病,会影响奶牛的生命周期和生活质量,并导致巨大的经济损失。早期的la悔检测有助于农民尽早解决疾病,并避免牛的变性引起的负面影响。我们收集了一个简短的奶牛的数据集,穿过走廊,从走廊出发,并注释了牛的la行。本文探讨了结果数据集,并提供了数据收集过程的详细说明。此外,我们提出了一种la行检测方法,该方法利用预先训练的神经网络从视频中提取判别特征,并为每个母牛分配二进制分数,表明其状况:“健康”或“ la脚”。我们通过强迫模型专注于牛的结构来改善这种方法,我们通过用训练有素的分割模型预测的二进制分割掩码来代替RGB视频来实现。这项工作旨在鼓励研究并提供有关计算机视觉模型在农场上的牛lo脚检测的适用性的见解。
translated by 谷歌翻译
在本文中,我们在爱尔兰都柏林都柏林的大型和繁忙机场中介绍了一个基于图像的人重新识别数据集。与所有可公开的基于图像的数据集不同,我们的数据集除帧号和相机和人员ID之外还包含时间戳信息。我们的数据集也完全是匿名的,以遵守现代数据隐私法规。我们将最先进的人重新识别模型应用于我们的数据集,并显示通过利用可用的时间戳信息,我们能够在地图中实现37.43%的显着增益,并且在Rank1精度中的增益为30.22%。我们还提出了一个贝叶斯颞次重新排名的后处理步骤,该步骤进一步增加了10.03%的地图增益和Rank1精度度量的9.95%。在其他基于图像的人重新识别数据集中不可能结合视觉和时间信息的工作。我们认为,拟议的新数据集将能够进一步开发人员重新识别研究,以挑战现实世界应用。 Daa DataSet可以从HTTPS://bit.ly/3Atxtd6下载
translated by 谷歌翻译
本文详细介绍了我们对2021年真正机器人挑战的第一阶段提交的提交;三指机器人必须沿指定目标轨迹携带立方体的挑战。为了解决第1阶段,我们使用一种纯净的增强学习方法,该方法需要对机器人系统或机器人抓握的最少专家知识。与事后的经验重播一起采用了稀疏,基于目标的奖励,以教导控制立方体将立方体移至目标的X和Y坐标。同时,采用了基于密集的距离奖励来教授将立方体提升到目标的Z坐标(高度组成部分)的政策。该策略在将域随机化的模拟中进行培训,然后再转移到真实的机器人进行评估。尽管此次转移后的性能往往会恶化,但我们的最佳政策可以通过有效的捏合掌握能够成功地沿目标轨迹提升真正的立方体。我们的方法表现优于所有其他提交,包括那些利用更传统的机器人控制技术的提交,并且是第一个解决这一挑战的纯学习方法。
translated by 谷歌翻译
灵巧的操纵仍然是机器人技术中的一个空缺问题。为了协调研究界为解决这个问题的努力,我们提出了共同的基准。我们设计和构建了机器人平台,该平台托管在MPI上供智能系统托管,可以远程访问。每个平台由三个能够敏捷物体操纵的机器人手指组成。用户能够通过提交自动执行的代码(类似于计算群集)来远程控制平台。使用此设置,i)我们举办机器人竞赛,来自世界任何地方的团队访问我们的平台以应对具有挑战性的任务ii)我们发布了在这些比赛中收集的数据集(包括数百个机器人小时),而我们为研究人员提供了访问自己项目的这些平台。
translated by 谷歌翻译
Despite being robust to small amounts of label noise, convolutional neural networks trained with stochastic gradient methods have been shown to easily fit random labels. When there are a mixture of correct and mislabelled targets, networks tend to fit the former before the latter. This suggests using a suitable two-component mixture model as an unsupervised generative model of sample loss values during training to allow online estimation of the probability that a sample is mislabelled. Specifically, we propose a beta mixture to estimate this probability and correct the loss by relying on the network prediction (the so-called bootstrapping loss). We further adapt mixup augmentation to drive our approach a step further. Experiments on CIFAR-10/100 and TinyImageNet demonstrate a robustness to label noise that substantially outperforms recent state-of-the-art. Source code is available at https://git.io/fjsvE.
translated by 谷歌翻译
Existing automated techniques for software documentation typically attempt to reason between two main sources of information: code and natural language. However, this reasoning process is often complicated by the lexical gap between more abstract natural language and more structured programming languages. One potential bridge for this gap is the Graphical User Interface (GUI), as GUIs inherently encode salient information about underlying program functionality into rich, pixel-based data representations. This paper offers one of the first comprehensive empirical investigations into the connection between GUIs and functional, natural language descriptions of software. First, we collect, analyze, and open source a large dataset of functional GUI descriptions consisting of 45,998 descriptions for 10,204 screenshots from popular Android applications. The descriptions were obtained from human labelers and underwent several quality control mechanisms. To gain insight into the representational potential of GUIs, we investigate the ability of four Neural Image Captioning models to predict natural language descriptions of varying granularity when provided a screenshot as input. We evaluate these models quantitatively, using common machine translation metrics, and qualitatively through a large-scale user study. Finally, we offer learned lessons and a discussion of the potential shown by multimodal models to enhance future techniques for automated software documentation.
translated by 谷歌翻译